简介
分类和量化(计数)是两个不同但又紧密相关的数据挖掘任务。它们可以相互获益。我们可以通过分类和计数每一个样本来量化样本。相反,我们也可以使用量化结果来调整分类的决策阈值,来改善具有不同类分别的应用中的分类准确度。
这篇论文中,作者假设:(1)数据可以被(近似)描述为一系列反复出现的概念(context) (2)尽管一些潜在的因素会造成概念漂移,但可观测变量的更小的集合和这些潜在因素是相关的。(3)在训练期间可用的变量,作者并不假设其在之后也可用。作者研究的是:在具有验证延迟的非稳态环境,如何准确地识别数据样本正确的上下文,同时估计正类的比例。
作者动机。作者的实验室为飞虫设计了一个传感器,其使用红外线捕捉飞虫的翅膀动作和机器学习根据飞虫信号分类它的物种和性别。这个传感器可以增强现有的捕蚊设别,这样的设备对于蚊虫控制和监控是很有价值的工作。分类是控制的首要任务,量化是监控的首要任务。由这些捕蚊设备收集的数据会呈现出漂移。有许多因素会影响昆虫的飞行行为,如温度、适度、气压、食物等。但一个严重的问题是:类分布是未知的并且是高度变化的。它取决于两个首要的因素:感兴趣物种的当地可用性(数量)和昆虫的昼夜节律。
在实验室作者可以控制各种变量使用虫箱(带有传感器的容器)来收集训练数据,这些数据可以确定所有经常性行为模式(context)的合理部分。每一个虫箱维持某一单一物种的昆虫。但是训练数据提供的是关于类分别$P(Y)$的有限的信息。在实验里,类分别取决于每一个虫箱里昆虫的数量和其昼夜节律;但在野外,类分别取决于昆虫当地分布和其昼夜节律。另外,实验人员可以评估许多会影响昆虫行为的因素,但他们想要移除一些非必要的因素。
提出的方法
作者提出了两种方法,它们可以识别一个样本所属的上下文,同时估计正样本类比率。作者提出的方法适合处理二分类和量化任务。
作者假设一个样本在某时间点仅属于一个上下文。尽管其算法接受一个样本作为输入,这可块可以视为是在数据流上的一个滑窗。
背景知识。HDy 是一种依赖于分类器为正面和负面事件输出的分数之间的统计差异的方法。其建立两个正则直方图,$H_+$和$H_-$,是由分类器分别在只包含正样本和负样本的验证集获得的分数的直方图。当出现未标注的测试数据集时,该算法使用同样的分类器在其上建立$H_?$。然后,使用如下的公式计算正样本比率:
HD 是 Hellinger Distance,它可以量化两个分布之间的相似性,其中每一个直方图有 B 个区间,由一个 B 维向量表示。HD公式如下:
两个直方图之间的差值可以代表另一种分布。
SMR-HDy
这个算法是解决该问题的一个简单方法,是第二个算法的基准。
考虑有上下文的集合$C = \{1,2,…,|C|\}$。对每一个上下文$i \in C$,都有可用的事件训练集$T_i \in T$和事件验证集$V_i \in V$。在这些集合中的每一个事件都关联一个类标签$y \in \{+,-\}$。令$V_i^y \subseteq V_i$是$V_i$的子集,其包含$V_i$中所有标签是$y$的样本。
从训练集$T_i$,作者推理得到分类模型$M_i$(ps:对每一个上下文单独训练一个分类器)。该算法接着计算在验证集$V_i$上由$M_i$获得的分数的正则直方图$H_i^y,y\in \{+,-\}$。
最后,给定事件$U$的无标注测试集,计算在测试集$U$上由分类器$M_i$获得的分数的正则直方图$H_i^U$。接着我们考虑对$U$最可能的上下文:
换句话说,$\hat{c}_s$是最小化分类器$M_{\hat{c}_s}$在验证集$V_{\hat{c}_s}$和测试集$U$获得分数的分布之间的散度的上下文。SMR-HDy背后的基本原理是验证集的直方图代表了分数的预期行为。比如,$H_1^+$代表的是对于使用$M_1$在context 1的正事件上取得分数所期望的行为。最后,HDy算法提供一个插值参数(在该论文中,即是正类比率的估计),该参数可以最小化测试直方图和两个训练直方图插值之间的散度。另外,该算法的一个副产品是,我们得到一种比较不同的上下文的测量方法。
值得注意的是,作者指出,在SMR-HDy算法中,我们期望的分数的行为,分数是由每个模型在仅属于它(模型)对应的上下文的事件上产生的。这是一种简单的方法,实际上作者认为这样会丢弃有用信息:分数的预期行为,当分数是由分类器$M_i$在验证集$V_j$上取得的且$i \ne j$。
XO-HDy
作者提出的第二个方法是Crossed Opinions HDy(XO-HDy),该算法考虑了当来自一个事件的分数是由对应不同上下文的分类器所获得是,该分数如何预期行为。
考虑$H_{i,j}^y$是由分类器$M_i$在验证集$V_j^y$上所获得分数的正则直方图。另外$\alpha_{i,j}$如下所示:
对$U$而言,最可能的上下文如下所示:
Figure 3提供了在该算法中数据分数在 Hellinger Distance 内的计算的视觉阐述。
该算法提供的$a_{\hat{c}_x}$,即是正类比率的估计。
分类调整
作者指出,一旦获得了推断上下文$\hat{c}$和正类比率的估计$\hat{a}$,我们就可以使用一个新的阈值重调分类器,并重新分类$U$中的事件。作者期望$\hat{a}$%的样本属于正类。因此,可以将分类阈值设为获得分数的$(1-\hat{a})$%。
三条限制
- 只适用于二分类问题。
- 上下文纯洁性假设,也就是,相邻实例属于同一个上下文。
- 假设我们已知所有上下文。